智能论文笔记

Interpretable Node Representation with Attribute Decoding

Xiaohui Chen , Xi Chen , Liping Liu

分类：机器学习

2022-12-03

Variational Graph Autoencoders (VGAEs) are powerful models for unsupervised learning of node representations from graph data. In this work, we systematically analyze modeling node attributes in VGAEs and show that attribute decoding is important for node representation learning. We further propose a new learning model, interpretable NOde Representation with Attribute Decoding (NORAD). The model encodes node representations in an interpretable approach: node representations capture community structures in the graph and the relationship between communities and node attributes. We further propose a rectifying procedure to refine node representations of isolated notes, improving the quality of these nodes' representations. Our empirical results demonstrate the advantage of the proposed model when learning graph data in an interpretable approach.

translated by 谷歌翻译

GeONet: a neural operator for learning the Wasserstein geodesic

Andrew Gracyk , Xiaohui Chen

分类：机器学习 | 人工智能 | 计算机视觉 | (统计)机器学习

2022-09-28

Optimal Transport（OT）提供了一个多功能框架，以几何有意义的方式比较复杂的数据分布。计算Wasserstein距离和概率措施之间的大地测量方法的传统方法需要网络依赖性域离散化，并且受差异性的诅咒。我们提出了Geonet，这是一个网状不变的深神经操作员网络，该网络从输入对的初始和终端分布对到Wasserstein Geodesic连接两个端点分布的非线性映射。在离线训练阶段，Geonet了解了以耦合PDE系统为特征的原始和双空间中OT问题动态提出的鞍点最佳条件。随后的推理阶段是瞬时的，可以在在线学习环境中进行实时预测。我们证明，Geonet在模拟示例和CIFAR-10数据集上达到了与标准OT求解器的可比测试精度，其推断阶段计算成本大大降低了。

translated by 谷歌翻译

Identity-Aware Hand Mesh Estimation and Personalization from RGB Images

Deying Kong , Linguang Zhang , Liangjian Chen , Haoyu Ma , Xiangyi Yan , Shanlin Sun , Xingwei Liu , Kun Han , Xiaohui Xie

分类：计算机视觉

2022-09-22

从单眼RGB图像中重建3D手网络，由于其在AR/VR领域的巨大潜在应用，引起了人们的注意力越来越多。大多数最先进的方法试图以匿名方式解决此任务。具体而言，即使在连续录制会话中用户没有变化的实际应用程序中实际上可用，因此忽略了该主题的身份。在本文中，我们提出了一个身份感知的手网格估计模型，该模型可以结合由受试者的内在形状参数表示的身份信息。我们通过将提出的身份感知模型与匿名对待主题的基线进行比较来证明身份信息的重要性。此外，为了处理未见测试对象的用例，我们提出了一条新型的个性化管道来校准固有的形状参数，仅使用该受试者的少数未标记的RGB图像。在两个大型公共数据集上进行的实验验证了我们提出的方法的最先进性能。

translated by 谷歌翻译

PPT: token-Pruned Pose Transformer for monocular and multi-view human pose estimation

Haoyu Ma , Zhe Wang , Yifei Chen , Deying Kong , Liangjian Chen , Xingwei Liu , Xiangyi Yan , Hao Tang , Xiaohui Xie

分类：计算机视觉

2022-09-16

最近，视觉变压器及其变体在人类和多视图人类姿势估计中均起着越来越重要的作用。将图像补丁视为令牌，变形金刚可以对整个图像中的全局依赖项进行建模或其他视图中的图像。但是，全球关注在计算上是昂贵的。结果，很难将这些基于变压器的方法扩展到高分辨率特征和许多视图。在本文中，我们提出了代币螺旋的姿势变压器（PPT）进行2D人姿势估计，该姿势估计可以找到粗糙的人掩模，并且只能在选定的令牌内进行自我注意。此外，我们将PPT扩展到多视图人类姿势估计。我们建立在PPT的基础上，提出了一种新的跨视图融合策略，称为人类区域融合，该策略将所有人类前景像素视为相应的候选者。可可和MPII的实验结果表明，我们的PPT可以在减少计算的同时匹配以前的姿势变压器方法的准确性。此外，对人类360万和滑雪姿势的实验表明，我们的多视图PPT可以有效地从多个视图中融合线索并获得新的最新结果。

translated by 谷歌翻译

Wasserstein $K$-means for clustering probability distributions

Yubo Zhuang , Xiaohui Chen , Yun Yang

分类： (统计)机器学习 | 机器学习

2022-09-14

聚类是基于它们的相似性对组对象的重要探索性数据分析技术。广泛使用的$ k $ -MEANS聚类方法依赖于一些距离的概念将数据划分为较少数量的组。在欧几里得空间中，$ k $ -Means的基于质心和基于距离的公式相同。在现代机器学习应用中，数据通常是作为概率分布而出现的，并且可以使用最佳运输指标来处理测量值数据。由于瓦斯坦斯坦空间的非负亚历山德罗夫曲率，巴里中心遭受了规律性和非舒适性问题。 Wasserstein Barycenters的特殊行为可能使基于质心的配方无法代表集群内的数据点，而基于距离的$ K $ -MEANS方法及其半决赛计划（SDP）可以恢复真实的方法集群标签。在聚集高斯分布的特殊情况下，我们表明SDP放松的Wasserstein $ k $ - 金钱可以实现精确的恢复，因为这些集群按照$ 2 $ - WASSERSTEIN MERTRIC进行了良好的分离。我们的仿真和真实数据示例还表明，基于距离的$ K $ -Means可以比基于标准的基于质心的$ k $ -Means获得更好的分类性能，用于聚类概率分布和图像。

translated by 谷歌翻译

Learning Grasp Ability Enhancement through Deep Shape Generation

Junnan Jiang , Xiaohui Xiao , Fei Chen , Miao Li

分类：机器人

2022-06-19

在过去的十年中，以数据为驱动的特别基于深度学习的方法已成为机器人Grasp计划的主要范式。但是，这些方法的性能在很大程度上受到可用培训数据集质量的影响。在本文中，我们提出了一个框架来生成对象形状以增强握把数据集，从而可以提高预设计的深神经网络的掌握能力。首先，使用编码器解码器结构网络将对象形状嵌入到低维特征空间中。然后，使用异常检测和掌握质量标准计算每个对象形状的稀有性和掌握得分。最后，在特征空间中生成了新的对象，以利用原始的高稀有性和掌握分数对象的特征。实验结果表明，通过生成的对象形状可以有效提高基于学习的GRASP计划网络的掌握能力。

translated by 谷歌翻译

Conditional Variational Autoencoder with Balanced Pre-training for Generative Adversarial Networks

Yuchong Yao , Xiaohui Wangr , Yuanbang Ma , Han Fang , Jiaying Wei , Liyuan Chen , Ali Anaissi , Ali Braytee

分类：计算机视觉 | 机器学习

2022-01-13

类别不平衡发生在许多实际应用程序中，包括图像分类，其中每个类中的图像数量显着不同。通过不平衡数据，生成的对抗网络（GANS）倾向于多数类样本。最近的两个方法，平衡GaN（Bagan）和改进的Bagan（Bagan-GP）被提出为增强工具来处理此问题并将余额恢复到数据。前者以无人监督的方式预先训练自动化器权重。但是，当来自不同类别的图像具有类似的特征时，它是不稳定的。后者通过促进监督的自动化培训培训，基于蒲甘进行改善，但预先培训偏向于多数阶级。在这项工作中，我们提出了一种新颖的条件变形式自动化器，具有用于生成的对抗性网络（CAPAN）的平衡训练，作为生成现实合成图像的增强工具。特别是，我们利用条件卷积改变自动化器，为GaN初始化和梯度惩罚培训提供了监督和平衡的预培训。我们所提出的方法在高度不平衡版本的MNIST，时尚 - MNIST，CIFAR-10和两个医学成像数据集中呈现出卓越的性能。我们的方法可以在FR \'回路截止距离，结构相似性指数测量和感知质量方面综合高质量的少数民族样本。

translated by 谷歌翻译

Molecular Contrastive Learning with Chemical Element Knowledge Graph

Yin Fang , Qiang Zhang , Haihong Yang , Xiang Zhuang , Shumin Deng , Wen Zhang , Ming Qin , Zhuo Chen , Xiaohui Fan , Huajun Chen

分类：机器学习 | 人工智能

2021-12-01

分子表示学习有助于多个下游任务，例如分子性质预测和药物设计。为了适当地代表分子，图形对比学习是一个有前途的范式，因为它利用自我监督信号并没有人类注释要求。但是，先前的作品未能将基本域名知识纳入图表语义，因此忽略了具有共同属性的原子之间的相关性，但不通过键连接连接。为了解决这些问题，我们构建化学元素知识图（KG），总结元素之间的微观关联，并提出了一种用于分子代表学习的新颖知识增强的对比学习（KCL）框架。 KCL框架由三个模块组成。第一个模块，知识引导的图形增强，基于化学元素kg增强原始分子图。第二模块，知识意识的图形表示，利用用于原始分子图的公共曲线图编码器和通过神经网络（KMPNN）的知识感知消息来提取分子表示来编码增强分子图中的复杂信息。最终模块是一种对比目标，在那里我们在分子图的这两个视图之间最大化协议。广泛的实验表明，KCL获得了八个分子数据集上的最先进基线的优异性能。可视化实验适当地解释了在增强分子图中从原子和属性中了解的KCL。我们的代码和数据可用于补充材料。

translated by 谷歌翻译

Stable and Compact Face Recognition via Unlabeled Data Driven Sparse Representation-Based Classification

Xiaohui Yang , Zheng Wang , Huan Wu , Licheng Jiao , Yiming Xu , Haolin Chen

分类：计算机视觉

2021-11-04

基于稀疏的代表的分类（SRC）通过将识别问题作为简单的线性回归问题铸造了很多关注。然而，SRC方法仍然仅限于每类别的足够标记的样本，不充分使用未标记的样本，以及表示的不稳定性。为了解决这些问题，提出了一种未标记的数据驱动的逆投影伪全空间表示的基于空间表示的分类模型，具有低级稀疏约束。所提出的模型旨在挖掘所有可用数据的隐藏语义信息和内在结构信息，这适用于少量标记的样本和标记样本与正面识别中的未标记样本问题之间的比例不平衡。引入了混合的高斯Seidel和Jacobian Admm算法来解决模型。分析了模型的收敛性，表示能力和稳定性。在三个公共数据集上的实验表明，所提出的LR-S-PFSRC模型达到稳定的结果，特别是对于样品的比例不平衡。

translated by 谷歌翻译

Video Salient Object Detection via Contrastive Features and Attention Modules

Yi-Wen Chen , Xiaojie Jin , Xiaohui Shen , Ming-Hsuan Yang

分类：计算机视觉

2021-11-03

视频突出对象检测旨在在视频中找到最具视觉上的对象。为了探索时间依赖性，现有方法通常是恢复性的神经网络或光学流量。然而，这些方法需要高计算成本，并且往往会随着时间的推移积累不准确性。在本文中，我们提出了一种带有注意模块的网络，以学习视频突出物体检测的对比特征，而没有高计算时间建模技术。我们开发了非本地自我关注方案，以捕获视频帧中的全局信息。共注意配方用于结合低级和高级功能。我们进一步应用了对比学学习以改善来自相同视频的前景区域对的特征表示，并将前景 - 背景区域对被推除在潜在的空间中。帧内对比损失有助于将前景和背景特征分开，并且帧间的对比损失提高了时间的稠度。我们对多个基准数据集进行广泛的实验，用于视频突出对象检测和无监督的视频对象分割，并表明所提出的方法需要较少的计算，并且对最先进的方法进行有利地执行。

translated by 谷歌翻译